# apyori库的安装：将下面代码注释取消后运行
# !pip install apyori

transactions = [['A', 'B', 'C'], ['A', 'B'], ['B', 'C'], ['A', 'B', 'C', 'D'], ['B', 'C', 'D']]

transactions

[['A', 'B', 'C'],
 ['A', 'B'],
 ['B', 'C'],
 ['A', 'B', 'C', 'D'],
 ['B', 'C', 'D']]

from apyori import apriori
rules = apriori(transactions, min_support=0.4, min_confidence=0.8) # in_support参数为最小支持度, 这里设置为0.4, 即之前设定的40%, min_confidence参数为最小置信度, 这里设置为0.8, 即之前设定的80%
results = list(rules) # 将获取到的关联规则赋给变量rules

results

[RelationRecord(items=frozenset({'B'}), support=1.0, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'B'}), confidence=1.0, lift=1.0)]),
 RelationRecord(items=frozenset({'C'}), support=0.8, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'C'}), confidence=0.8, lift=1.0)]),
 RelationRecord(items=frozenset({'A', 'B'}), support=0.6, ordered_statistics=[OrderedStatistic(items_base=frozenset({'A'}), items_add=frozenset({'B'}), confidence=1.0, lift=1.0)]),
 RelationRecord(items=frozenset({'B', 'C'}), support=0.8, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'B', 'C'}), confidence=0.8, lift=1.0), OrderedStatistic(items_base=frozenset({'B'}), items_add=frozenset({'C'}), confidence=0.8, lift=1.0), OrderedStatistic(items_base=frozenset({'C'}), items_add=frozenset({'B'}), confidence=1.0, lift=1.0)]),
 RelationRecord(items=frozenset({'D', 'B'}), support=0.4, ordered_statistics=[OrderedStatistic(items_base=frozenset({'D'}), items_add=frozenset({'B'}), confidence=1.0, lift=1.0)]),
 RelationRecord(items=frozenset({'D', 'C'}), support=0.4, ordered_statistics=[OrderedStatistic(items_base=frozenset({'D'}), items_add=frozenset({'C'}), confidence=1.0, lift=1.25)]),
 RelationRecord(items=frozenset({'A', 'B', 'C'}), support=0.4, ordered_statistics=[OrderedStatistic(items_base=frozenset({'A', 'C'}), items_add=frozenset({'B'}), confidence=1.0, lift=1.0)]),
 RelationRecord(items=frozenset({'D', 'B', 'C'}), support=0.4, ordered_statistics=[OrderedStatistic(items_base=frozenset({'D'}), items_add=frozenset({'B', 'C'}), confidence=1.0, lift=1.25), OrderedStatistic(items_base=frozenset({'D', 'B'}), items_add=frozenset({'C'}), confidence=1.0, lift=1.25), OrderedStatistic(items_base=frozenset({'D', 'C'}), items_add=frozenset({'B'}), confidence=1.0, lift=1.0)])]

type(results[0].ordered_statistics)

list

for i in results:  # 遍历results中的每一个频繁项集
    for j in i.ordered_statistics:  # 获取频繁项集中的关联规则
        X = j.items_base  # 关联规则的前件
        Y = j.items_add  # 关联规则的后件
        x = ', '.join([item for item in X])  # 连接前件中的元素
        y = ', '.join([item for item in Y])  # 连接后件中的元素
        if x != '':  # 防止出现关联规则前件为空的情况
            print(x + ' → ' + y)  # 通过字符串拼接的方式更好呈现结果

A → B
B → C
C → B
D → B
D → C
A, C → B
D → B, C
D, B → C
D, C → B

# !pip install mlxtend

# 或者

# !pip install mlxtend -i https://pypi.tuna.tsinghua.edu.cn/simple

transactions = [['A', 'B', 'C'], ['A', 'B'], ['B', 'C'], ['A', 'B', 'C', 'D'], ['B', 'C', 'D']]

transactions

[['A', 'B', 'C'],
 ['A', 'B'],
 ['B', 'C'],
 ['A', 'B', 'C', 'D'],
 ['B', 'C', 'D']]

from mlxtend.preprocessing import TransactionEncoder
TE = TransactionEncoder()  # 构造转换模型
data = TE.fit_transform(transactions)  # 将原始数据转换为bool值

data

array([[ True,  True,  True, False],
       [ True,  True, False, False],
       [False,  True,  True, False],
       [ True,  True,  True,  True],
       [False,  True,  True,  True]])

# 通过在内容后面加?可以查看官方介绍
TE.columns_?

Type:        list
String form: ['A', 'B', 'C', 'D']
Length:      4
Docstring:  
Built-in mutable sequence.

If no argument is given, the constructor creates a new empty list.
The argument must be an iterable if specified.

import pandas as pd
df = pd.DataFrame(data, columns=TE.columns_)  # 用DataFrame存储bool数据

df

from mlxtend.frequent_patterns import apriori
items = apriori(df, min_support=0.4, use_colnames=True)  # use_colnames=True表示使用df的列名而不是列索引作为返回的DataFrame列名

items

items['itemsets'].apply(lambda x: len(x))  # 获取每一个项集的元素个数

0     1
1     1
2     1
3     1
4     2
5     2
6     2
7     2
8     2
9     3
10    3
Name: itemsets, dtype: int64

items[items['itemsets'].apply(lambda x: len(x)) >= 2]  # 选择长度 >=2 的频繁项集

import warnings

warnings.filterwarnings('ignore')

# 根据最小置信度在频繁项集中产生强关联规则
from mlxtend.frequent_patterns import association_rules
rules = association_rules(items, min_threshold=0.8)

rules

# 通过如下代码更好地展示关联规则
for i, j in rules.iterrows():  # 遍历DataFrame二维表格的每一行
    X = j['antecedents']  # 关联规则的前件
    Y = j['consequents']  # 关联规则的后件
    x = ', '.join([item for item in X])  # 连接前件中的元素
    y = ', '.join([item for item in Y])  # 连接后件中的元素
    print(x + ' → ' + y)  # 通过字符串拼接打印关联规则

A → B
B → C
C → B
D → B
D → C
A, C → B
D, B → C
D, C → B
D → B, C

transactions = [['A', 'B', 'C'], ['A', 'B'], ['B', 'C'], ['A', 'B',  'C', 'D'], ['B', 'C', 'D']]

transactions

[['A', 'B', 'C'],
 ['A', 'B'],
 ['B', 'C'],
 ['A', 'B', 'C', 'D'],
 ['B', 'C', 'D']]

import pandas as pd
df = pd.read_excel('中医辨证.xlsx')

df.head()

# 简单演示下tolist()函数
print(df['病人症状'].tolist()[0:10])

print(len(df['病人症状']))

['消化不良,便秘', '心悸,失眠', '腰疼,脱发,眼干', '腹胀,便秘,哮喘,胸闷气短,消化不良', '神经衰弱,失眠,月经不调', '神经衰弱,消化不良,月经不调', '失眠,眼干,月经不调', '腹胀,便秘,哮喘,胸闷气短,消化不良', '腰疼,脱发,眼干,心悸', '神经衰弱,消化不良,月经不调']
1000

# 转换为双重列表结构
symptoms = []
for i in df['病人症状'].tolist():
    symptoms.append(i.split(','))

print(symptoms[0:10])

[['消化不良', '便秘'], ['心悸', '失眠'], ['腰疼', '脱发', '眼干'], ['腹胀', '便秘', '哮喘', '胸闷气短', '消化不良'], ['神经衰弱', '失眠', '月经不调'], ['神经衰弱', '消化不良', '月经不调'], ['失眠', '眼干', '月经不调'], ['腹胀', '便秘', '哮喘', '胸闷气短', '消化不良'], ['腰疼', '脱发', '眼干', '心悸'], ['神经衰弱', '消化不良', '月经不调']]

from apyori import apriori
rules = apriori(symptoms, min_support=0.1, min_confidence=0.7)
results = list(rules)

for i in results:  # 遍历results中的每一个频繁项集
    for j in i.ordered_statistics:  # 获取频繁项集中的关联规则
        X = j.items_base  # 关联规则的前件
        Y = j.items_add  # 关联规则的后件
        x = ', '.join([item for item in X])  # 连接前件中的元素
        y = ', '.join([item for item in Y])  # 连接后件中的元素
        if x != '':  # 防止出现关联规则前件为空的情况
            print(x + ' → ' + y)  # 通过字符串拼接的方式更好呈现结果

便秘 → 消化不良
失眠 → 月经不调
神经衰弱 → 消化不良
脱发 → 眼干
腰疼 → 眼干
心悸, 失眠 → 月经不调
神经衰弱, 心悸 → 消化不良

from mlxtend.preprocessing import TransactionEncoder
TE = TransactionEncoder()  # 构造转换模型
data = TE.fit_transform(symptoms)  # 将原始数据转化为bool值
data

array([[ True, False, False, ..., False, False, False],
       [False, False,  True, ..., False, False, False],
       [False, False, False, ...,  True, False, False],
       ...,
       [False, False, False, ..., False, False,  True],
       [False, False, False, ..., False, False, False],
       [False,  True, False, ..., False, False, False]])

import pandas as pd
df = pd.DataFrame(data, columns=TE.columns_)  # 用DataFrame存储bool数据
df.head()

from mlxtend.frequent_patterns import apriori # 将数据处理为mlxtend库可接受的特定格式后, 从mlxtend库的frequent_patterns模块中引入apriori()函数来挖掘数据中的频繁项集
items = apriori(df, min_support=0.1, use_colnames=True)

items

items[items['itemsets'].apply(lambda x: len(x)) >= 2]

# 根据最小置信度在频繁项集中挖掘强相关规则

from mlxtend.frequent_patterns import association_rules
rules = association_rules(items, min_threshold=0.7)

rules

for i, j in rules.iterrows():  # 遍历DataFrame二维表格的每一行
    X = j['antecedents']  # 关联规则的前件
    Y = j['consequents']  # 关联规则的后件
    x = ', '.join([item for item in X])  # 连接前件中的元素
    y = ', '.join([item for item in Y])  # 连接后件中的元素
    print(x + ' → ' + y)  # 通过字符串拼接打印关联规则

便秘 → 消化不良
失眠 → 月经不调
神经衰弱 → 消化不良
脱发 → 眼干
腰疼 → 眼干
心悸, 失眠 → 月经不调
神经衰弱, 心悸 → 消化不良

	antecedents	consequents	antecedent support	consequent support	support	confidence	lift	representativity	leverage	conviction	zhangs_metric	jaccard	certainty	kulczynski
0	(A)	(B)	0.6	1.0	0.6	1.0	1.00	1.0	0.00	inf	0.000000	0.6	0.0	0.80
1	(B)	(C)	1.0	0.8	0.8	0.8	1.00	1.0	0.00	1.0	0.000000	0.8	0.0	0.90
2	(C)	(B)	0.8	1.0	0.8	1.0	1.00	1.0	0.00	inf	0.000000	0.8	0.0	0.90
3	(D)	(B)	0.4	1.0	0.4	1.0	1.00	1.0	0.00	inf	0.000000	0.4	0.0	0.70
4	(D)	(C)	0.4	0.8	0.4	1.0	1.25	1.0	0.08	inf	0.333333	0.5	1.0	0.75
5	(A, C)	(B)	0.4	1.0	0.4	1.0	1.00	1.0	0.00	inf	0.000000	0.4	0.0	0.70
6	(D, B)	(C)	0.4	0.8	0.4	1.0	1.25	1.0	0.08	inf	0.333333	0.5	1.0	0.75
7	(D, C)	(B)	0.4	1.0	0.4	1.0	1.00	1.0	0.00	inf	0.000000	0.4	0.0	0.70
8	(D)	(B, C)	0.4	0.8	0.4	1.0	1.25	1.0	0.08	inf	0.333333	0.5	1.0	0.75

	support	itemsets
0	0.184	(便秘)
1	0.124	(哮喘)
2	0.393	(失眠)
3	0.452	(心悸)
4	0.484	(月经不调)
5	0.344	(消化不良)
6	0.311	(眼干)
7	0.188	(神经衰弱)
8	0.140	(胸闷气短)
9	0.151	(脱发)
10	0.160	(腰疼)
11	0.160	(消化不良, 便秘)
12	0.218	(心悸, 失眠)
13	0.318	(月经不调, 失眠)
14	0.116	(失眠, 眼干)
15	0.249	(月经不调, 心悸)
16	0.180	(消化不良, 心悸)
17	0.114	(心悸, 眼干)
18	0.108	(神经衰弱, 心悸)
19	0.104	(月经不调, 消化不良)
20	0.170	(月经不调, 眼干)
21	0.164	(神经衰弱, 消化不良)
22	0.143	(脱发, 眼干)
23	0.136	(腰疼, 眼干)
24	0.167	(月经不调, 心悸, 失眠)
25	0.100	(神经衰弱, 消化不良, 心悸)

	support	itemsets
11	0.160	(消化不良, 便秘)
12	0.218	(心悸, 失眠)
13	0.318	(月经不调, 失眠)
14	0.116	(失眠, 眼干)
15	0.249	(月经不调, 心悸)
16	0.180	(消化不良, 心悸)
17	0.114	(心悸, 眼干)
18	0.108	(神经衰弱, 心悸)
19	0.104	(月经不调, 消化不良)
20	0.170	(月经不调, 眼干)
21	0.164	(神经衰弱, 消化不良)
22	0.143	(脱发, 眼干)
23	0.136	(腰疼, 眼干)
24	0.167	(月经不调, 心悸, 失眠)
25	0.100	(神经衰弱, 消化不良, 心悸)

	antecedents	consequents	antecedent support	consequent support	support	confidence	lift	representativity	leverage	conviction	zhangs_metric	jaccard	certainty	kulczynski
0	(便秘)	(消化不良)	0.184	0.344	0.160	0.869565	2.527806	1.0	0.096704	5.029333	0.740686	0.434783	0.801166	0.667341
1	(失眠)	(月经不调)	0.393	0.484	0.318	0.809160	1.671819	1.0	0.127788	2.703840	0.662025	0.568873	0.630156	0.733093
2	(神经衰弱)	(消化不良)	0.188	0.344	0.164	0.872340	2.535873	1.0	0.099328	5.138667	0.745885	0.445652	0.805397	0.674542
3	(脱发)	(眼干)	0.151	0.311	0.143	0.947020	3.045080	1.0	0.096039	13.004875	0.791050	0.448276	0.923106	0.703413
4	(腰疼)	(眼干)	0.160	0.311	0.136	0.850000	2.733119	1.0	0.086240	4.593333	0.754902	0.405970	0.782293	0.643650
5	(心悸, 失眠)	(月经不调)	0.218	0.484	0.167	0.766055	1.582758	1.0	0.061488	2.205647	0.470833	0.312150	0.546618	0.555548
6	(神经衰弱, 心悸)	(消化不良)	0.108	0.344	0.100	0.925926	2.691645	1.0	0.062848	8.856000	0.704574	0.284091	0.887082	0.608312

第15章关联分析: Apriori算法¶

15.1 关联分析的基本概念和Apriori算法¶

15.1.1 关联分析的基本概念¶

15.1.2 Apriori算法的数学演示¶

15.1.3 Apriori算法的代码实现¶

1. 通过apyori库实现Apriori算法¶

2. 通过mlxtend库实现Apriori算法¶

补充知识点: lift（提升度）、leverage（杠杆率）、conviction（确信度）¶

15.2 案例实战: 病症关联规则分析¶

15.2.1 案例背景¶

15.2.2 代码实现¶

1. 通过apyori库实现¶

2. 通过mlxtend实现¶

	A	B	C	D
0	True	True	True	False
1	True	True	False	False
2	False	True	True	False
3	True	True	True	True
4	False	True	True	True

	support	itemsets
0	0.6	(A)
1	1.0	(B)
2	0.8	(C)
3	0.4	(D)
4	0.6	(A, B)
5	0.4	(A, C)
6	0.8	(B, C)
7	0.4	(D, B)
8	0.4	(D, C)
9	0.4	(A, B, C)
10	0.4	(D, B, C)

	病人编号	病人症状
0	1	消化不良,便秘
1	2	心悸,失眠
2	3	腰疼,脱发,眼干
3	4	腹胀,便秘,哮喘,胸闷气短,消化不良
4	5	神经衰弱,失眠,月经不调

第15章 关联分析: Apriori算法¶

15.1 关联分析的基本概念和Apriori算法¶

15.1.1 关联分析的基本概念¶

15.1.2 Apriori算法的数学演示¶

15.1.3 Apriori算法的代码实现¶

1. 通过apyori库实现Apriori算法¶

2. 通过mlxtend库实现Apriori算法¶

补充知识点: lift（提升度）、leverage（杠杆率）、conviction（确信度）¶

15.2 案例实战: 病症关联规则分析¶

15.2.1 案例背景¶

15.2.2 代码实现¶

1. 通过apyori库实现¶

2. 通过mlxtend实现¶

第15章关联分析: Apriori算法¶